期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于词频统计的文本关键词提取方法
罗燕, 赵书良, 李晓超, 韩玉辉, 丁亚飞
计算机应用    2016, 36 (3): 718-725.   DOI: 10.11772/j.issn.1001-9081.2016.03.718
摘要1277)      PDF (1022KB)(962)    收藏
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TF-IDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。
参考文献 | 相关文章 | 多维度评价
2. 亲属关系网络的关系追溯算法
郭瑞强 闫绍惠 赵书良 申玉凤
计算机应用    2014, 34 (7): 1988-1991.   DOI: 10.11772/j.issn.1001-9081.2014.07.1988
摘要210)      PDF (652KB)(602)    收藏

人与人之间通过婚姻关系和亲子关系构成了亲属关系网络。针对亲属关系网络庞大、难以追溯等问题,结合广度优先搜索策略,提出了两种亲属关系追溯算法:半径搜索和定向搜索。依托河北省全员人口数据库,将数据范围扩展到复杂网络的层次,以市级亲属关系数据为例构建亲属关系网络,包含约415万个节点,约1088万条边。采用双向亲属关系存储,避免了亲属关系回溯查询等问题。实验结果表明关系追溯算法能够准确定位特定关系亲属,同时具有较高的执行效率和较好的灵活性。

参考文献 | 相关文章 | 多维度评价
3. 基于概念格的多值属性关联规则可视化
郭晓波 赵书良 赵娇娇 刘军丹
计算机应用    2013, 33 (08): 2198-2203.  
摘要792)      PDF (1159KB)(477)    收藏
针对传统关联规则可视化方法无法展现数据间的频繁模式和关联关系,表示形式比较单一,缺乏多模式展现形式等问题,提出了一种新的多值属性关联规则可视化表示算法。该算法运用概念格理论对多值属性数据进行了重新定义和分类,将频繁项集和关联规则中的多值数据项分别以概念格结构进行表示,实现了频繁项集可视化展示和一对一、一对多、多对一、多对多及概念分层的多模式关联规则可视化展示。最后,以某省全员人口数据为基础对算法进行了具体实现和分析,同时实现了对人口数据的源数据、频繁模式以及关联关系的可视化展示。实验结果表明,所提出的可视化形式和已有成果相比具有良好的频繁项集与多模式关联规则展现效果。
参考文献 | 相关文章 | 多维度评价
4. 家谱关系的元图表示
刘军丹 赵书良 赵娇娇 郭晓波 陈敏 柳萌萌
计算机应用    2013, 33 (07): 2037-2040.   DOI: 10.11772/j.issn.1001-9081.2013.07.2037
摘要785)      PDF (657KB)(509)    收藏
针对已有家谱图展示形式中,边的数量随节点数的增加而快速增长导致表现力下降的问题,提出以元图的形式对家谱进行可视化展示。家谱的元图表示形式中,产生集表示家族中所有人员组成的集合,每条边仅表示“父母〖CD*2〗子女”关系,不必存在表示夫妻关系的边。其中,边为产生集的两个子集的有序对,分别为具有夫妻关系的两个节点组成的入点集和单个的孩子节点组成的出点集。实验结果表明,在数据相同的情况下,家谱的元图可视化形式中边的数量约为通常的展示形式中边数量的一半,使得展示结果清晰易懂。同时,对家谱的数学建模、可视化研究以及家谱信息系统的改造具有一定指导作用。
参考文献 | 相关文章 | 多维度评价